MatMulFusion ================= 矩阵乘法融合(可选偏置和激活),计算: .. math:: C = \operatorname{act}(A \times B + \text{bias}) 其中 ``A`` 形状为 :math:`M\times K`,``B`` 为 :math:`K\times N`,``C`` 与可选的 ``bias`` 为 :math:`M\times N`。 激活 ``act`` 支持: - ``0``: 无激活(Identity) - ``1``: ReLU - ``2``: ReLU6 输入: - **A** - 输入矩阵 A(行优先,连续存储)。大小 M×K。 - **B** - 输入矩阵 B(行优先,连续存储)。大小 K×N。 - **bias** - 偏置矩阵(可为 NULL,大小 M×N)。 - **M, N, K** - 维度参数。 - **activation_type** - 激活类型,取值 {0,1,2}。 - **core_mask(可选)** - 核掩码(仅适用于共享存储版本)。 输出: - **C** - 输出矩阵(行优先,大小 M×N)。 支持平台: ``FT78NE`` ``MT7004`` .. note:: - 复数类型的激活逐分量应用于实部与虚部。 - 请确保输入按行优先连续布局,且不发生类型范围溢出;int16/int32 计算未做饱和裁剪。 - 共享存储版本要求地址位于 GSM/DDR/SMC 等共享可见空间。 **共享存储版本:** .. c:function:: void i16_matmulfusion_s(int16_t *A, int16_t *B, int16_t *C, int16_t *bias, int M, int N, int K, int activation_type, int core_mask) .. c:function:: void i32_matmulfusion_s(int32_t *A, int32_t *B, int32_t *C, int32_t *bias, int M, int N, int K, int activation_type, int core_mask) .. c:function:: void fp_matmulfusion_s(float *A, float *B, float *C, float *bias, int M, int N, int K, int activation_type, int core_mask) .. c:function:: void dp_matmulfusion_s(double *A, double *B, double *C, double *bias, int M, int N, int K, int activation_type, int core_mask) .. c:function:: void c64_matmulfusion_s(float complex *A, float complex *B, float complex *C, float complex *bias, int M, int N, int K, int activation_type, int core_mask) .. c:function:: void c128_matmulfusion_s(double complex *A, double complex *B, double complex *C, double complex *bias, int M, int N, int K, int activation_type, int core_mask) **C调用示例:** .. code-block:: c :linenos: :emphasize-lines: 12 #include #include int main(int argc, char* argv[]) { float *A = (float *)0xA0000000; // DDR float *B = (float *)0xA1000000; // DDR float *C = (float *)0xA2000000; // DDR float *bias = (float *)0xA3000000; // DDR,可为 NULL int M = 512, N = 512, K = 512; int activation_type = 1; // ReLU int core_mask = 0xff; // 8 核 fp_matmulfusion_s(A, B, C, bias, M, N, K, activation_type, core_mask); return 0; } **私有存储版本:** .. c:function:: void i16_matmulfusion_p(int16_t *A, int16_t *B, int16_t *C, int16_t *bias, int M, int N, int K, int activation_type) .. c:function:: void i32_matmulfusion_p(int32_t *A, int32_t *B, int32_t *C, int32_t *bias, int M, int N, int K, int activation_type) .. c:function:: void fp_matmulfusion_p(float *A, float *B, float *C, float *bias, int M, int N, int K, int activation_type) .. c:function:: void dp_matmulfusion_p(double *A, double *B, double *C, double *bias, int M, int N, int K, int activation_type) .. c:function:: void c64_matmulfusion_p(float complex *A, float complex *B, float complex *C, float complex *bias, int M, int N, int K, int activation_type) .. c:function:: void c128_matmulfusion_p(double complex *A, double complex *B, double complex *C, double complex *bias, int M, int N, int K, int activation_type) **C调用示例:** .. code-block:: c :linenos: :emphasize-lines: 10 #include int main(int argc, char* argv[]) { double *A = (double *)0x10000000; // L2 double *B = (double *)0x10020000; // L2 double *C = (double *)0x10040000; // L2/DDR double *bias = NULL; // 可为 NULL int M = 128, N = 128, K = 128; int activation_type = 0; // None dp_matmulfusion_p(A, B, C, bias, M, N, K, activation_type); return 0; }